在第15天時有討論資料處理的一些項目與過程.
其中一項是從網路上擷取資料.
從網路上擷取資料的方式很多,今天要介紹 curl.
我們從古騰堡計畫的網站來擷取馬基維利的君王論.
curl -s http://www.gutenberg.org/cache/epub/1232/pg1232.txt > prince.txt
做簡單的統計,單字的使用情形,降冪排列
< prince.txt tr '[:upper:]' '[:lower:]' |
grep -oE '\w+' |
sort |
uniq -c |
sort -nr |
head -n 10
   3111 the
   2116 to
   1938 and
   1802 of
    994 in
    922 he
    783 a
    746 that
    640 his
    586 it
使用head只顯示出10行.
grep 相信大家都很熟悉了;其餘指令在敝人另外使用
丁小雨帳號參賽的蠻可愛的指令中有介紹.
可以看到雖是Linux的指令,對我們在處理資料時,
有極大的幫助,速度也快.
因為當年UNIX在發展時,一個主要的任務,
就是協助處理貝爾實驗室大量的專利文件.